我们提出了一个混合机器学习体系结构,该体系结构同时采用多个深度学习模型,分析Windows便携式可执行文件的上下文和行为特征,从而根据Meta模型的决定产生最终预测。当代机器学习Windows恶意软件分类器中的检测启发式启发式基于样本的静态属性,因为通过虚拟化动态分析对于大量样本而言是挑战性的。为了超越这一限制,我们采用了Windows内核仿真,该仿真允许以最低的时间和计算成本获得大型语料库中的行为模式。我们与安全供应商合作,收集了超过100k的INT样品,这些样本类似于当代威胁景观,在执行时包含原始的PE文件和应用程序的档案。获得的数据集至少比行为恶意软件分析的相关工作中报告的十倍大。培训数据集中的文件由专业威胁情报团队标记,使用手动和自动化的反向工程工具。我们通过收集培训集的收购来估算混合分类器的运营实用程序。我们报告了提高的检测率,高于当前最新模型的功能,尤其是在低阳性要求下。此外,即使没有任何单个模型表达足够的信心来将样本标记为恶意,我们也发现了元模型在验证和测试集中识别恶意活动的能力。我们得出的结论是,元模型可以从不同分析技术产生的表示组合中学习典型的恶意样本模式。我们公开发布了预培训的模型和仿真报告的匿名数据集。
translated by 谷歌翻译